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Beschreibung 

Verfahren zum Erzeugen einer Statistik von Phondauern und 
Verfahren zum Ermitteln der Dauer einzelner Phone fur die 
5 Sprachsynthese 

Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen 
einer Statistik von Phondauern und ein Verfahren zum Ermit- 
teln der Dauer einzelner Phone fur die Sprachsynthese. 

10 

Im Sinne der vorliegenden Anmeldung ist ein Phonem die 
kleinste bedeutungsunterscheidende, aber nicht selbstbedeu- 




tungstragende sprachliche Einheit (z.B. b in Bein im Unter- 



schied zu p in Pein) . Ein Phon ist hingegen der ausgesproche- 
15 ne Laut eines Phonems . 

Verfahren zum Erzeugen einer Statistik von Phondauern, wobei 
auf Grundlage dieser Statistik bei der synthetischen Sprach- 
erzeugung die Phondauern gesteuert werden konnen, sind be- 
20 kannt . Bei derartigen Verfahren wird ein von einem Sprecher 
gesprochener Text auf gezeichnet und der auf gezeichnete Text 
in einzelne Phone segmentiert. Von den einzelnen Phonen wird 
die Lautlange bestimmt. Diese Phondauern wird in einer Sta- 
tistik erfasst, wobei die Statistik eine Liste von Triphonen 
^25 aufweist. Ein Triphon ist ein Kluster von einem oder mehreren 
\. ; Phonemen mit dem jeweiligen rechten und linken Kontext. 

Bei den bekannten Verfahren wird jeweils einem Phonem der 
Triphone in ihrem links-rechts Kontext eine mittlere Phonlan- 
30 ge bzw. Lautdauer zugeordnet. Diese Phondauern wird aus alien 
Phonen des gesprochenen Textes ermittelt, die im gleichen 
Kontext im gesprochenen Text wie in dem jeweiligen Triphon 
vorkommen, das heifit deren benachbarte Phone korrespondieren 
zu den benachbarten Phonemen im Triphon. 

35 

Bei den bekannten Verfahren zum Ermitteln der Dauer einzelner 
Phone fur die Sprachsynthese werden den Phonemen des zu syn- 
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thetisierenden Textes die jeweils mittlere Lautdauer des Pho- 
nems der Statistik zugeordnet, dessen Kontext im Triphon dem 
Kontext des Phonems im zu synthetisierenden Textes ent- 
spricht. 1st z.B. die Phondauern des Phonems „b* des Wortes 
„aber* zu Ermitteln, so wird bei dem bekannten Verfahren dem 
Phonem „b* diejenige Phondauern zugeordnet, die in der Sta- 
tistik dem Phonem „b* im Triphon „abe* zugeordnet ist. Die 
Kontexte des Triphons und im zu synthetisierenden Text sind 
hier jeweils identisch. 



Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum 
Erzeugen einer Statistik von Phondauern, wobei auf Grundlage 
dieser Statistik bei der synthetischen Spracherzeugung die 
Phondauern gesteuert werden konnen, und ein Verfahren zum Er- 
15 mitteln der Dauer einzelner Phone ftir die Sprachsynthese zu 
schaffen, wodurch eine Sprachsynthese mit natiirlicherer Aus- 
sprache als bei bekannten Verfahren erzielt werden soil. 

Die Aufgabe wird mit einem Verfahren zum Erzeugen einer Sta- 
2 0 tistik von Phondauern mit den Merkmalen des Anspruchs 1 und 
durch ein Verfahren zum Ermitteln der Dauer einzelner Phone 
mit den Merkmalen des Anspruchs 11 gelost. Vorteilhafte Aus- 
gestaltungen der Erfindung sind in den Unteranspriichen ange- 
geben. 

25 

Das erf indungsgemalie Verfahren zum Erzeugen einer Statistik 
von Phondauern auf Grundlage der bei der synthetischen 
Spracherzeugung die Phondauern gesteuert werden konnen, uin- 
fasst folgende Schritte: 

30 

- Zuordnen von Phonen eines in Phone segmentierten gesproche- 
nen und auf gezeichneten Textes zu Phonemen von vorbestimm- 
ten Primarklustern, die aus mehreren Phonemen zusammenge- 
setzt sind, wobei jeweils ein Phon einem Phonem eines Pri- 
35 marklusters zugeordnet wird, wenn es im gesprochenen Text 
zu einem im Kontext des Phonems des Primarklusters identi- 
schen oder ahnlichen Kontext auftritt, 
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- Erstellen einer Primarstatistik, die zumindest die mittlere 
Phondauern aller Phone, die dem jeweiligen Phonem eines 
Primarklusters zugeordnet sind, umfasst, 

5 - Zuordnen von Phonen des gesprochenen und auf gezeichneten 
Textes zu Phonemen zu vorbestimmten Sekundarklustern, die 
aus Phonemen zusammengesetzt sind, wobei zumindest die An- 
zahl Phoneme einiger Sekundarkluster sich von der Anzahl 
der Phoneme der Primarkluster unterscheidet, wobei jeweils 
10 ein Phon einem Phonem eines Sekundarklusters zugeordnet 

wird, wenn es im gesprochenen Text zu einem im Kontext des 
Phonems des Sekundarklusters identischen Kontext auftritt, 

- Erstellen einer Sekundarstatistik, die zumindest die mitt- 
15 lere Phondauern aller Phone, die dem jeweiligen Phonem ei- 
nes Sekundarklusters zugeordnet sind, umfasst. 

Die durch das erf indungsgemaBe Verfahren erzeugte Statistik 
besteht somit aus einer Primarstatistik und einer Sekundar- 
20 statistik. Die Primarstatistik kann auf Primarkluster mit 

z.B. jeweils drei Phonemen beruhen, so dass sie der eingangs 
erlauterten Statistik auf Basis von Triphonen entspricht. Die 
Sekundarstatistik ist eine weitere Statistik auf Basis von 
Sekundarklustern, die sich in der Anzahl der Phoneme zumin- 
^€5 dest teilweise von der Anzahl der Phoneme der Primarkluster 
" *' unterscheiden.' Hierdurch wird eine sprachspezif ischere Sta- 
tistik zur Phondauern erzielt. 

So konnen z.B. die Primarkluster drei Phoneme und die Sekun- 
30 darkluster vier Phoneme umfassen, wodurch ein grolierer Kon- 
text (vier Phoneme gegenuber drei Phonemen) bei der Ermitt- 
lung der mittleren Phondauern beriicksichtigt wird, so dass 
durch eine wesentlich sprachspezif ischere Auswertung erzielt 
wird. 

35 

Nach einer bevorzugten Aus ftihrungs form der Erfindung besitzen 
die Primarkluster eine konstante Anzahl Phoneme, wohingegen 
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die Anzahl der Phoneme der Sekundarkluster variabel ist. So 
konnen z.B. die Primarkluster jeweils drei Phoneme und die 
Sekundarkluster jeweils alle Phoneme eines Wortes umfassen. 
Mit Hilfe dieser Sekundarkluster wird dann eine wortspezifi- * 
5 sche Auswertung der Phondauern erzielt, die wesentlich prazi- 
ser ist, als die auf Grundlage der Triphone . 

Nach einer bevorzugten Ausfuhrungsf oriti der Erfindung werden 
in der Sekundarstatistik nur Sekundarkluster erfasst, deren 
Haufigkeit im Text grolier oder gleich einer vorbestimmten 
Mindesthauf igkeit ist. Hierdurch wird sichergestellt , dass in 
der Statistik nicht signifikante Haufigkeiten nicht beruck- 
sichtigt werden. So ist es zweckmaliig, Worter, die in dem ^ 
Text, auf dem die Statistik beruht, lediglich einmal oder 
zweimal vorkommen, nicht zu berucksichtigen . 

Das erf indungsgemafle Verfahren zum Ermitteln der Dauer ein- 
zelner Phone fur die Sprachsynthese beruht auf einer derarti- 
gen eine Primarstatistik und eine Sekundarstatistik umfassen- 
20 den Statistik von Phondauern. Dieses Verfahren umfasst fol- 
gende Schritte: 

Bestimmen, ob das in Sprache umzusetzende Phonem, fur das 
die Phondauern zu ermitteln ist, Bestandteil eines Sekun- 
darklusters ist, 

) 

Zuordnen der mittleren Phondauern (d) , die in der Sekundar- 
statistik dem entsprechenden Phonem in dem jeweiligen Se- 
kundarkluster zugeordnet ist, falls das Phonem Bestandteil 
eines Sekundarklusters ist, und 

- Zuordnen der mittleren Phondauern (d) , die in der Primar- 
statistik dem entsprechenden Phonem in dem jeweiligen Pri- 
markluster zugeordnet ist, falls das Phonem nicht Bestand- 
35 teil eines Sekundarklusters ist. 



10 



15 



25 



30 



200013225 



i 



Bei diesem Verfahren wird bevorzugt die sprachspezif ischere 
Sekundarstatistik bei der Ermittlung der Phondauern ausgewer- 
tet. Hierbei ist zu berucksichtigen, dass beim Erzeugen der 
Sekundarstatistik lediglich identische Kontexte zwischen dem 
5 Sekundarkluster und dem entsprechenden Abschnitt in dem ge- 
sprochenen und auf gezeichneten Text, auf dem die Statistiken 
beruhen, berucksichtigt werden, wohingegen bei der Primarsta- 
tistik auch ahnliche Kluster zu berucksichtigen sind, falls 
keine identische Ubereinstimmung vorhanden ist. Dies ist ein 
10 weiterer Grund, weshalb zunachst versucht wird, die Sekundar- 
statistik auszuwerten, bevor auf die Primarstatistik zuruck- 
gegriffen wird. 

Gemafi einer bevorzugten Weiterbildung des Verfahrens zum Er- 
15 mitteln der Dauer einzelner Phone wird die Standardabweichung 
der einzelnen mittleren Phondauern berucksichtigt. Dies be- 
wirkt eine weitere Anpassung an eine natlirliche Aussprache; 

Die Erfindung wird nachfolgend beispielhaft anhand der bei- 
20 liegenden Zeichnungen naher erlautert. In denen zeigen sche- 
matisch : 

Fig. 1 einen allgemeinen Oberblick iiber die Ablaufe bei der 
Erzeugung einer Statistik von Phondauern in einem 
25 Flussdiagramm, 

Fig. 2 die Ver f ahrensschritte zur statistischen Auswertung 
einer Sprachauf zeichnung zur Erzeugung einer Statis- 
tik von Phondauern, 



30 



Fig. 3 ein Verfahren zum Ermitteln der Dauer einzelner Phone 
fur die Sprachsynthese in einem Flussdiagramm, und 



35 



Fig. 4 



ein Computersystem zum Ausfuhren der erf indungsgema- 
J5en Verfahren in einem Blockschaltbild . 
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Fig. 1 zeigt die grundlegenden Ablaufe fur ein Verfahren zum 
Erzeugen einer Statistik von Phondauern, auf deren Grundlage 
bei der synthetischen Spracherzeugung die Phondauern gesteu- 
ert werden kann. 

5 • 

Das Verfahren beginnt mit dem Schritt SI und im Schritt S2 
wird ein vorbestiinmter Trainingstext von einem Sprecher ge- 
sprochen und auf gezeichnet . Die Aufzeichnung erfolgt mittels 
eines Mikrofons, das die akustischen Sprachsignale in korres- 
10 pondierende elektrische Sprachsignale wandelt. 

Das auf gezeichnete Sprachsignal wird im Schritt S3 in einzel- 
ne Phone segmentiert. Das Segmentieren des Sprachsignals in 
die einzelnen Phone wird oftmals von einem Sprachexperten ma- 
15 nuell durchgefiihrt . Es sind auch voll- und teilautomatische 
Verfahren bekannt, die in der Regel auf einem HMM (Hidden- 
Markow-Model) Algorithmus beruhen. 

Im Schritt S4 werden die einzelnen Phone statistisch ausge- 
20 wertet, wobei deren Dauer bestimmt wird* Phondauern von Pho- 
nen, die dem gleichen Phonem im gleichen oder ahnlichen Kon- 
text zugeordnet sind, werden statistisch ausgewertet, indem 
deren Mittelwerte und Standardabweichungen berechnet werden. 

25 Im Schritt S5 wird dieses Verfahren beendet. 

} 

Die erf indungsgemafl auszuf iihrenden Verf ahrensschritte bei der 
statistischen Auswertung (S4) sind in Fig. 2 in einem Fluss- 
diagramm dargestellt. Mit dem Schritt S6 beginnt das statis- 

30 tische Auswerteverf ahren . Zunachst werden die einzelnen Phone 
des Trainingstextes einem Primarkluster zugeordnet. Im vor- 
liegenden Ausf uhrungsbeispiel ist das Primarkluster ein aus 
drei Phonemen bestehendes Triphon. Ein Phon des Trainingstex- 
tes wird demjenigen Triphon zugeordnet, dessen mittleres Pho- 

35 nem dem Phon des Trainingstextes entspricht und das den glei- 
chen Kontext wie der Abschnitt des Trainingstextes in dem das 
zuzuordnende Phon angeordnet ist, aufweist. Dies bedeutet, 
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dass die zum mittleren Phonem des Triphons benachbarten Pho- 
neme den benachbarten Phonen des zuzuordnenden Phones des 
Trainingstextes entsprechen. Soil z.B. das Phon des Phonems 
„f* des Wortes „Anfang* einem solchen Primarkluster zugeord- 
net werden, so wird dieses Phon dem Phonem „f* im Triphon 
„nfa* zugeordnet, da die beiden benachbarten Phoneme „n* 
(links) und „a* (rechts) den entsprechenden Phonen von „n* 
und „a* im Trainingstext entsprechen. 

Die Primarkluster sind in einer vorab festgelegten Liste ge- 
speichert. Sind die Primarkluster Triphone, so umfasst eine 
solche Liste typischerweise 1500 bis 2000 Triphone, In dieser 
Liste sind die am haufigsten auftretenden Permutationen von 
drei auf einanderf olgenden Phonemen enthalten. Selten und ahn- 
lich klingende Permutationen werden in einem Kluster zusam- 
mengefasst. So konnen z.B. die Triphone „ter* und „der* in. 
einem Kluster zusammengef asst sein. 

Bei der Zuordnung nach dem Schritt S7 werden somit die Phone 
den jeweiligen Phonemen im gleichen oder ahnlichen Kontext 
zugeordnet . 

Am Ende dieses Zuordnungsvorganges sind der Liste der Pri- 
markluster alle Phone des Trainingstextes zugeordnet, das 
heilit, dass eine Liste vorliegt, in der zu jedem Pri- 
markluster die entsprechenden Phone des Trainingstextes ge- 
speichert sind. 

Im Schritt S8 wird die mittlere Phondauern d' und die Stan- 
dardabwei chung G fur das jeweils mittlere Phonem eines jedem 
aus drei Phonemen bestehenden Primarklusters berechnet. Hier- 
bei werden die Lautdauern der einzelnen einem Primarkluster 
zugeordneten Phone gemittelt und als mittlere Lautdauer ge- 
speichert und die entsprechende Standardabweichung G berech- 
net . 
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Mit dem Schritt S8 wird somit eine Primarstatistik erzeugt, 
die im wesentlicher der eingangs erorterten, aus dem Stand 
der Technik bekannten Statistik entspricht. 

5 Im Schritt S9 werden die einzelnen Phone Sekundarklustern zu- 
geordnet. Im vorliegenden Ausfuhrungsbeispiel umfassen die 
Sekundarkluster jeweils alle Phoneme eines Wortes. Die Lange 
der Sekundarkluster ist somit variabel. Bei der Zuordnung der 
Phone zu den Sekundarklustern werden die Worter des Trai- 

10 ningstextes ermittelt und die einzelnen Phone dieser Worter 

werden den korrespondierenden Phonemen der entsprechenden Se- 
kundarkluster zugeordnet. Ein wesentlicher Unterschied gegen- 
tiber dem Schritt S7 ist, dass hier nicht nur ein Phon einem 
Kluster zugeordnet wird, sondern alle Phone eines Wortes wer- 

15 den den entsprechenden Phonemen des Sekundarkluster zugeord- 
net, das heiJJt, dass alien Phonemen des Sekundarklusters je- 
weils ein Phon zugeordnet wird. Im Schritt S10 wird geprtift, 
ob den Phonemen der Sekundarkluster jeweils mindestens drei 
Phone des Trainingstextes zugeordnet worden sind. Ist dies 

20 nicht der Fall, bedeutet dies, dass das entsprechende Wort im 
Trainingstext weniger als dreimal vorkommt und deshalb nicht 
statistisch signifikant ist. Sekundarkluster, denen weniger 
als drei Worter des Trainingstextes zugeordnet worden sind, 
werden geloscht. 

25 

Im vorliegenden Ausfuhrungsbeispiel betragt die geforderte 
Haufigkeit fur die Signifikanz drei. Zur Erzielung einer gro- 
JJeren statistischen Sicherheit kann es zweckmaflig sein, einen 
entsprechend hoheren Wert anzusetzen. 

30 

Im Schritt Sll wird die mittlere Phondauern d' und die Stan- 
dardabweichung G fur ein jedes Phonem des Sekundarklusters 
berechnet und abgespeichert . Als Ergebnis des Schrittes Sll 
wird eine Sekundarstatistik auf Grundlage der Sekundarkluster 
35 erhalten. 

Im Schritt S12 wird das Auswerteverf ahren beendet. 
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Mit dem in Fig. 2 gezeigten Ausf uhrungsbeispiel wird eine 
Statistik erhalten, die wesentlich sprachspezif ischer ist, da 
die einzelnen Phondauern sehr stark von dem entsprechenden 
Kontext abhangen und ein wesentlich praziserer Kontext durch 
den Kontext eines gesamten Wortes beriicksichtigt wird, falls 
dies statistisch moglich ist. Wird auf Grundlage einer sol- 
chen zweistufigen Statistik die Lautdauer fur eine Sprachsyn- 
these bestimmt, so ermoglicht dies eine wesentlich naturli- 
chere Synthese der Sprache . 

Im Rahmen der Erfindung konnen sowohl andere Primarkluster 
und Sekundarkluster verwendet werden. Insbesondere ist es 
z.B. moglich Sekundarkluster mit einer konstanten Lange von 
z.B. vier Phonemen zu verwenden. Es konnte jedoch auch zweck- 
mafiig sein, bei bestimmten Anwendungen, wesentlich langere, 
Sekundarkluster zu verwenden, die z.B. eine vollstandige 
Phrase, einen vollstandigen Satz oder einen ganzen Absatz um- 
fassen konnen. Je langer die Sekundarkluster gewahlt werden, 
desto spezieller sollte das Anwendungsgebiet der Sprachsyn- 
these sein. Ein typisches Beispiel fur ein sehr spezielles 
Anwendungsgebiet einer Sprachsynthese ist ein Navigationssys- 
tem ftir Kraf tf ahrzeuge, bei dem wiederholt sehr ahnliche Sat- 
ze und Satzstrukturen erzeugt werden. 

In Fig. 3 ist ein Verfahren zum Ermitteln einzelner Phone ftir 
die Sprachsynthese schematisch in einem Flussdiagramm darge- 
stellt . 

Ausgangspunkt des Verfahrens ist, dass ein Phonem eines zu 
synthetisierenden Textes in ein Phon umgesetzt wird und die 
Dauer dieses Phons zu bestimmen ist. 

Das Verfahren beginnt mit dem Schritt S13. Im Schritt S14 
wird der Kontext des Phonems im Ausgangstext bestimmt. Hier- 
bei wird zweckmaliigerweise der Umfang des Kontextes so ge- 
wahlt, dass er der Lange des Sekundarklusters entspricht. Im 
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vorliegenden Ausf iihrungsbeispiel wirci der Kontext im Umfang 
eines Wortes bestimmt. 

Im Schritt S15 wird geprttft, ob der im Schritt S14 ermittelte - 
5 Kontext als Sekundarkluster in der Sekundarstatistik gespei- 
chert ist. 1st dies der Fall, geht der Programmablauf auf den" 
Schritt S16 iiber, mit dem die mittlere Phondauern d' die dem 
Phonem des Sekundarklusters zugeordnet ist, der dem Phonem 
des Ausgangstextes entspricht, und die Phondauern und die 
10 Standardabweichung ausgelesen werden. Der Programmablauf geht 
dann auf den Schritt S17 iiber, bei dem die tatsachlich anzu- 
wendende Phondauern d aus der mittleren Phondauern d' und der 
Standardabweichung G gemafi folgender Formel berechnet wird: ^ 

15 d = d'+Gs, 

wobei s ein Geschwindigkeitsskalierungsf aktor ist, der gemafi 
folgender Formel berechnet wird: 

20 s = R rel -l, 

wobei Rrei das Verhaltnis der zu sprechenden Sprechgeschwin- 
digkeit gegenuber der Sprechgeschwindigkeit ist, mit der der 
Text auf dem die Statistik beruht, gesprochen worden ist. 

25 Durch die Beriicksichtigung der Standardabweichung werden Pho- 
ne, die der Sprecher des Trainingstextes mit stark unter- 
schiedlichen Langen ausgesprochen hat, entsprechend stark bei 
der Sprachsynthese variiert. Z.B. werden Plosiv-Laute, wie 
z.B. „k* sehr wenig variiert, weshalb sie eine sehr kleine , 

30 Standardabweichung besitzen. Sie werden bei der Sprachsynthe- 
se entsprechend wenig variiert. Vokale, wie z.B. „a* werden 
stark variiert, weshalb sie eine entsprechend groBe Standard- 
abweichung besitzen. Bei obigen Formeln ist zu berucksichti- 
gen, dass der Geschwindigkeitsskalierungsf aktor s auch nega- 

35 tive Werte annehmen kann, wodurch die Phondauern gegenuber 
der mittleren Phondauern entsprechend verkiirzt wird. 
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Ergibt die Abfrage im Schritt S15 hingegen, dass der im 
Schritt S14 ermittelte Kontext nicht in der Sekundarstatistik 
enthalten ist, so geht der Verf ahrensablauf auf den Schritt 
S18 uber. Im Schritt S18 wird gepruft, ob der Abschnitt des 
Kontextes im Bereich des umzusetzenden Phonems identisch zu 
einem Primarkluster der Primarstatistik ist. Ist dies der 
Fall, geht der Verf ahrensablauf auf den Schritt S19 liber. Im 
Schritt SI 9 wird die mittlere Phondauern und die Standardab- 
weichung des mittleren Phonems des entsprechenden Pri- 
marklusters ausgelesen. Der Verf ahrensablauf geht dann auf 
den Schritt S17 liber, mit dem in der oben erlauterten Weise 
die tatsachlich anzuwendende Phondauern berechnet wird. 

Ergibt die Abfrage im Schritt S18, dass zu dem Kontext des 
Ausgangstextes kein identisches Primarkluster in der Primar- 
statistik vorhanden ist, so geht der Verf ahrensablauf auf den 
Schritt S20 uber, in dem ein Primarkluster bestimmt wird,:. das 
dem Kontext klanglich moglichst ahnlich ist. 

Im darauf folgenden Schritt S21 werden die mittlere Phondauern 
und die Standardabweichung des mittleren Phonems dieses Pri- 
marklusters ausgelesen. Der Verf ahrensablauf geht dann auf 
den Schritt S17 iiber. 

Nach Ausfuhrung des Schrittes S17 wird das Verfahren zum Er- 
mitteln der Dauer eines Phons eines Phonems eines Ausgangs- 
textes im Schritt S18 beendet . 

Das erf indungsgemafie Verfahren zum Bestimmen der Phondauern 
fur die Sprachsynthese ist somit ein zweistufiges Verfahren, 
bei dem zunachst versucht wird, mittels der Sekundarstatistik 
eine mittlere Phondauern zu ermitteln, die auf einem speziel- 
len Kontext (hier: Wortlange) beruht, wodurch eine Lautdauer 
ermittelt wird die der nattirlichen Sprechweise wesentlich 
ahnlicher ist, als die auf Grund der Primarstatistik ermit- 
telte Phondauern. Sollte diese Phondauernbestimmung mittels 
der Sekundarstatistik nicht moglich sein, so wird auf die 
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Primarstatistik zuriickgegrif f en, die grundsatzlich immer an- 
wendbar ist. 

Insbesondere die Kombination des Verfahrens zum Erzeugen der 
5 Statistik und des Verfahrens zum Ermitteln der Phondauern 
stellt ein im wesentlichen rein statistisches Verfahren zur 
Ermittlung der Phondauern dar, das im wesentlichen ohne Ex- 
pertenwissen erstellt und angewendet werden kann. Bei dem o- 
ben beschriebenen Ausfiihrungsbeispiel wird z.B. lediglich bei 
10 der Segmentierung der Sprachauf zeichnung Expertenwissen ein- 
gesetzt, wobei dieser Schritt mittels bekannter Verfahren 
auch automatisierbar ist. 

Die erf indungsgemalien Verfahren sind so einfach zu implemen- 
15 tieren und zu trainieren. Dennoch haben erste Versuche mit 

Prototypen gezeigt, dass sie bei der Sprachsynthese eine we- 
sentliche Steigerung der Sprachqualitat bewirken, da die 
Phondauern durch das Vorsehen der Sekundarstatistik sprach- 
spezifischer ermittelt wird. 

20 

Die oben beschriebenen Verfahren konnen als Computerprogramme 
realisiert werden, die selbstandig auf einem Computer zum Er- 
zeugen der Statistik bzw. zum Ermitteln der Phondauern ablau- 
fen. Sie stellen somit automatisch ausflihrbare Verfahren dar. 

25 

Die Computerprogramme konnen auch auf elektrisch lesbaren Da- 
tentragern gespeichert werden und so auf andere Computersys- 
teme tibertragen werden. 

30 Ein zur Anwendung des erf indungsgemalien Verfahrens geeignetes 
Computersystem ist in Fig. 4 gezeigt. Das Computersystem 1 
weist einen internen Bus 2 auf, der mit einem Speicherbereich 
3, einer zentralen Prozessoreinheit 4 und einem Interface 5 
verbunden ist. Das Interface 5 stellt iiber eine Datenleitung 

35 6 eine Datenverbindung zu weiteren Computer systemen her. An 

dem internen Bus 2 sind ferner eine akustische Ausgabeeinheit 
7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9 
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angeschlossen. Die akustische Ausgabeeinheit 7 ist mit einem 
Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem 
Bildschirm 11 und die Eingabeeinheit 9 mit einer Tastatur 12 
verbunden. An dem Computersystem 1 konnen liber die Datenlei- 
5 tung 6 und das Interface 5 Sprachauf zeichnungen eines Textes 
ubertragen werden, die im Speicherbereich 3 abgespeichert 
werden. Der Speicherbereich 3 ist in mehrere Bereiche unter- 
teilt, in denen Sprachauf zeichnungen, Audiodateien, Anwen- 
dungsprogramme zum Durchfuhren der erf indungsgemaflen Verfah- 

10 ren und weitere Anwendungs- und Hilf sprogramme gespeichert 

sind. Die Sprachdateien werden mit vorbestimmten Programmpa- 
keten analysiert und in die einzelnen Phone segmentiert. Da- 
MPr nach wird das erf indungsgemafie Verfahren zum Erzeugen emer 
Statistik ausgefiihrt, wobei als Ergebnis die Primar- und Se- 

15 kundarstatistik vorliegen. 

Ein beispielsweise tiber die Datenleitung 6 und das Interface 
5 im Speicherbereich 3 abgespeicherter Text kann dann in eine 
Audiodatei umgesetzt werden, wobei die Phondauern mittels des 
2 0 erf indungsgemafien Verfahrens (Fig. 3) auf Grundlage der Pri- 
mar- und Sekundarstatistik bestimmt werden* 



Eine so erzeugte Audiodatei wird uber den internen Bus 2 zur 
akustischen Ausgabeeinheit 7 ubertragen und von dieser am 
25 Lautsprecher 10 als Sprache ausgegeben. 
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Patentanspriiche 

1. Verfahren zum Erzeugen einer Statistik von Phondauern, wo- 
bei auf Grundlage dieser Statistik bei der synthetischen 
5 Spracherzeugung die Phondauern gesteuert werden konnen, um- 
fassend folgende Schritte: 

- Zuordnen von Phonen eines in Phone segmentierten gesproche- 
.nen und auf gezeichneten Textes zu Phonemen von vorbestimm- 

ten Primarklustern, die aus mehreren Phonemen zusammenge- 
10 setzt sind, wobei jeweils ein Phon einem Phonem eines Pri- 
marklusters zugeordnet wird, wenn es im gesprochenem Text 
zu einem dem Kontext des Phonems des Primarklusters identi- 
schen oder ahnlichen Kontext auftritt, 

- Erstellen einer Primarstatistik, die zumindest die mittlere 
15 Phondauern aller Phone, die dem jeweiligen Phonem eines 

Primarklusters zugeordnet sind, umfasst, 
gekennzeichnet durch 

- Zuordnen von Phonen des gesprochenen und auf gezeichneten 
Textes zu Phonemen von vorbestimmten Sekundarklustern, die 

20 aus Phonemen zusammengesetzt sind, wobei zumindest die An- 

zahl Phoneme einiger Sekundarkluster sich von der Anzahl 
der Phoneme der Primarkluster unterscheidet, wobei jeweils 
ein Phon einem Phonem eines Sekundarklusters zugeordnet 
wird, wenn es im gesprochenem Text zu einem dem Kontext des 

25 Phonems des Sekundarklusters identischen Kontext auftritt, 

- Erstellen einer Sekundarstatistik, die zumindest die mitt- 
lere Phondauern aller Phone, die dem jeweiligen Phonem ei- 
nes Sekundarklusters zugeordnet sind, umfasst. 

30 2. Verfahren zum Erzeugen einer Statistik von Phondauern nach 
Anspruch 1, 

dadurch gekennzeichnet, 

dass die Anzahl der Phoneme der Primarkluster konstant ist 

und die Anzahl z.B. gleich 3 ist. 

35 

3. Verfahren zum Erzeugen einer Statistik nach Anspruch 1 o- 
der 2, 
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dadurch gekennzeichnet, 

dass die Anzahl der Phoneme des Sekundarklusters variabel ist 
und die Sekundarkluster z.B. jeweils die Phoneme eines Wortes 
umfassen. 

5 

4. Verfahren zum Erzeugen einer Statistik nach einem der An- 
spriiche 1 bis 3, 

dadurch gekennzeichnet, 
dass die Primarstatistik und die Sekundarstatistik jeweils 
10 die Standardabweichung der jeweiligen Phondauern umfassen. 

5. Verfahren zum Erzeugen einer Statistik nach einem der An- 
^Sr spruche 1 bis 4, 

dadurch gekennzeichnet, 
15 dass mit der Sekundarstatistik nur Sekundarkluster erfasst 
werden, deren Haufigkeit im Text groJJer oder gleich einer - 
vorbestimmten Mindesthauf igkeit ist. 

6. Verfahren zum Erzeugen einer Statistik nach einem der An- 
20 spruche 1 bis 5, 

dadurch gekennzeichnet, 

dass die Mindesthauf igkeit zumindest 3 betragt und vorzugs- 
weise im Bereich von 3 bis 10 liegt. 

^25 7. Verfahren zum Erzeugen einer Statistik nach einem der An- 
spriiche 1 bis 6, 

dadurch gekennzeichnet, 
dass die Zuordnung der Phone zu Phonemen der Primarkluster 
mittels einer vorbestimmten Liste von in Primarklustern grup- 
30 pierten Phonemen erfolgt, wobei die Phone den einzelnen Pho- 
nemen der Primarkluster der Liste zugeordnet werden und die 
einzelnen Zuordnungen abgespeichert werden. 

8. Verfahren nach Anspruch 7, 
35 dadurch gekennzeichnet, 

dass zu den einzelnen Phonemen der Primarklustern der Liste 
auf Grundlage der abgespeicherten Zuordnungen jeweils die 
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mittlere Phondauern (d) und die Standardabweichung (G) der 
mittleren Phondauern berechnet werden. 

9. Verfahren nach einem der Anspruche 1 bis 8, 
5 dadurch gekennzeichnet, 

dass die Zuordnung der Phone zu den Phonemen der Sekun- 
darkluster mittels einer vorbestimmten Liste von in Sekun- 
darklustern gruppierten Phonemen erfolgt, wobei die Phone den 
einzelnen Phonemen der Sekundarkluster der Liste zugeordnet 
10 werden und die einzelnen Zuordnungen abgespeichert werden. 

10. Verfahren nach Anspruch 9, 

dadurch gekennzeichnet, Qh ] 
dass zu den einzelnen Phonemen der Sekundarkluster der Liste 
15 auf Grundlage der abgespeicherten Zuordnungen jeweils die 
mittlere Phondauern (d) und die Standardabweichung (G) der 
mittleren Phondauern berechnet werden. 

11. Verfahren zum Ermitteln der Dauer einzelne Phone fur die 
20 Sprachsynthese, mittels einer Statistik von Phondauern, die 

eine Primarstatistik und eine Sekundarstatistik aufweist, wo- 
bei die Primarstatistik in Primarkluster gruppierte Phoneme 
umfasst, und den einzelnen Phonemen der Primarkluster zumin- 
dest eine mittlere Phondauern zugeordnet ist, und 
25 die Sekundarstatistik in Sekundarkluster gruppierte Phoneme 
umfasst, und den einzelnen Phonemen der Sekundarkluster zu- 
mindest eine mittlere Phondauern zugeordnet ist, 
umfassend folgende Schritte: 

- Bestimmen, ob das in Sprache umzusetzende Phonem, fur das 
30 die Phondauern zu ermitteln ist, Bestandteil eines Sekun- 

darklusters ist, 

- Zuordnen der mittleren Phondauern (d) , die in der Sekundar- 
statistik dem entsprechendem Phonem in dem jeweiligen Se- 
kundarkluster zugeordnet ist, falls das Phonem Bestandteil 

35 eines Sekundarklusters ist, und 

- Zuordnen der mittleren Phondauern (d) , die in der Primar- 
statistik dem entsprechendem Phonem in dem jeweiligen Pri- 
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markluster zugeordnet ist, falls das Phonem nicht Bestand- 
teil eines Sekundarklusters ist. 

12. Verfahren zum Ermitteln der Dauer der einzelnen Phone bei 
5 der Sprachsynthese mittels einer Statistik mit einem Verfah- 
ren nach einem der Anspruche 1 bis 10 erzeugten Statistik. 

13. Verfahren nach Anspruch 11 oder 12, 
dadurch gekennzeichnet, 

10 dass bei der Ermittlung der Dauer (d) der einzelnen Phone die 
Standardabweichungen (G) der in der Statistik gespeicherten 
mittleren Phondauern (d') gemafi folgender Formel berucksich- 
tigt werden 

15 d = d'+Gs, 

wobei s ein Geschwindigkeitsskalierungsf aktor ist, der gemafi 
folgender Formel berechnet wird 

20 5 = ^-1, 

wobei Rrei das Verhaltnis der zu sprechenden Sprechgeschwin- 
digkeit gegentiber der Sprechgeschwindigkeit , mit der der Text 
auf dem die Statistik beruht, gesprochen worden ist. 



# 



14. Vorrichtung zum Erzeugen einer Statistik von Phondauern 
auf Grundlage der bei der synthetischen Spracherzeugung die 
Phondauern gesteuert werden konnen, mit 



30 einem Computersystem (1), das einen Speicherbereich (3) auf- 
weist, in dem ein Programm zum Ausfuhren eines Verfahrens 
nach einem der Anspruche 1 bis 10 gespeichert ist. 



35 



15. Vorrichtung zum Ermitteln der Dauer einzelner Phone fur 
die Sprachsynthese mit 



200013225 



< 



18 

einem Computersystem (1), das einen Speicherbereich (3) auf- 
weist, in dem ein Programm zum Ausfiihren eines Verfahrens 
nach einem der Anspriiche 11 bis 13 gespeichert ist. 
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Zusammenf as sung 

Verfahren zum Erzeugen einer Statistik von Phondauern und 
Verfahren zum Ermitteln der Dauer einzelner Phone fur die 
5 Sprachsynthese 

Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen 
einer Statistik von Phondauern und ein Verfahren zum Ermit- 
teln der Dauer einzelner Phone ftir die Sprachsynthese. 

10 

Erf indungsgemaB wird eine Primarstatistik vorgesehen, die 
beispielsweise auf Primarklustern (z.B. Triphonen) beruht und 

^ eine Sekundarstatistik, die auf Sekundarklustern (z.B. Phone- 
me von ganzen Wortern) beruht. Beide Statistiken beinhalten 

15 mittlere Phondauern und beispielsweise die Standardabweichung 
der mittleren Phondauern. Bei der Ermittlung der Phondauern 
wird zunachst versucht, diese anhand der Sekundarstatistik, 
die sprachspezif ischer ist, zu ermitteln. Falls dies nicht 
der Fall ist, wird auf die Primarstatistik zuriickgegrif f en, 

20 die immer anwendbar ist. Durch dieses zweistufige Verfahren 
wird eine Phondauer ermittelt, die einer naturlichen Sprache 
wesentlich besser entspricht, als dies mit dem bekannten ein- 
stufigen Verfahren moglich war. 



# 5 



(Figur 2) 
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